Skip to main content

5.4.1 Faktorvariabler

Faktorvariabler kan brukes til å automatisere omkoding av flerkategorivariabler slik at de kan brukes i et regresjonsuttrykk. I praksis vil hver kategori minus referansekategorien representeres ved separate dummyvariabler, der en tolkningsmessig måler effekten av de enkelte kategorier sammenliknet med referansekategorien. En bruker da prefikset i. foran variabelnavnet i det aktuelle regresjons-uttrykket. Den laveste verdien vil som standard benyttes som referanseverdi.

Faktorvariabler kan også brukes til å estimere effekten av kombinasjoner av verdier for utvalgte kategoriske variabler (i tillegg til effekten hver enkelt forklaringsvariabel har hver for seg). Rasjonalet bak er at enkelte egenskaper har ulik effekt på den avhengige variabelen når en ser på ulike grupper. F.eks. kan effekten av utdanning på fremtidig inntekt være systematisk forskjellig for menn versus kvinner. Om en har slike antakelser, kan faktorvariabler komme til nytte.

Man angir faktorvariabler og kombinasjoner av disse i regresjonsuttrykk på følgende måte: Prefikset i. brukes altså til å angi at en variabel er kategorisk, mens symbolet # brukes til å angi at alle kategorier bortsett fra referansegruppene skal kombineres og estimeres gjennom respektive koeffisientestimat. Ved bruk av ## angir en at også hver enkelt kategori hver for seg skal estimeres og inngå i regresjonsanalysen.

Eksempel på lineær regresjonsanalyse med innt19 (yrkesinntekt i 2019) som den avhengige variabelen. De uavhengige variablene er mann, utdanningsnivå, og alle undergrupper av de to variablene kombinert med hverandre, bortsett fra referansegruppen:

regress innt19 i.mann i.utdanningsnivå utdanningsnivå#mann

Resultat:

Dette alternativet gir samme resultat:

regress innt19 utdanningsnivå##mann

Prefikset c. kan benyttes til å signalisere at en variabel skal regnes som en kontinuerlig variabel (ikke-kategorisk). Dette kan være aktuelt å bruke i de tilfeller hvor en variabel kan tolkes som kontinuerlig, f.eks. utdanningsnivå eller alder. Følgende uttrykk kjører en liknende regresjon som over, men der utdanningsnivå anses som en kontinuerlig variabel:

regress innt19 i.mann c.utdanningsnivå utdanningsnivå#mann

Resultat: